大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理|将指定区域内容保存为HTML和Excel格式

作者：闲云野鹤-男主角_185 | 来源：互联网 | 2024-11-11 19:05

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入htmlex

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入htmlexcel文档相关的知识，希望对你有一定的参考价值。

(Requests+Etree+BeautifulSoup+Pandas+Path应用 | 获取页面指定区域数据存入html、excel文档)

1 需求来源

获取网页指定区域数据，并进行保存；

简单说就是pa chong的需求了。

2 需求细节

注意：请文明上网，本文仅作为学习用。讲述的是思路和方法，所以对被测试网站关键数据进行隐藏。如有需要，可学习思路后自行找测试对象进行学习。

某网站，进入后如下，有很多数据分类：

进入某个分类后有很多小分类，如电阻器中的页面：

而每个小类又有很多数据，那我们就是要把这些数据下载下来进行保存：

3 设计分析

根据以上【需求细节】，我们已经大概明白需要做啥，就是要下载一个大的分类下的小类中的内容：

要请求对应页面数据，那我们需要用到的requests.get方法；

请求完数据后，要获取对应元素的html，要用到etree.HTML和tree.xpath方法；

因为这些大类或小类，其实本质上都是不同的链接，从页面看我们可能需要获取a标签，那么需要使用BeautifulSoup进行页面解析；

下载下来的数据，我们要进行保存到html格式的文件中，那我们要用到基本的数据写入，比如open和write方法；

想把下载下来的html原格式保存到excel中，那需要对html和excel格式进行解析，需要使用pandas进行处理；

这个中间过程中，需要对文件和路径进行处理，所以还需要用到Path方法；

最后我们把脚本打包成exe方便运行和使用，那需要用到打包工具Pyinstaller处理。

4 技术栈

从【3 设计分析】来看，我们需要用到以下工具环境。

工具	版本	用途
`Python`	V3.7.0	脚本设计
`beautifulsoup4`	V4.11.1	html页面数据解析
`lxml`	V4.6.3	`etree.HTML`、`tree.xpath`获取对应元素的html
`pandas`	V1.1.5	excel数据处理
`requests`	V2.24.0	页面数据请求

复制以下内容命名为 requirements.txt，直接使用pip install -r requirements.txt即可安装需要的包；

beautifulsoup4==4.11.1 lxml==4.6.3 pandas==1.1.5 requests==2.24.0
5 设计实现

先引入所有需要的包：

import requests from lxml import etree from bs4 import BeautifulSoup import pandas import os import time from pathlib import Path

创建基类Tools：

class Tools(object): """公共方法（工具）作为基类被后续调用"""

5.1 封装公共方法类Tools

5.1.1 封装数据请求方法get_category

创建方法get_category，传入四个参数：

def get_category(self, curt_url, curt_xpath, curt_list, curt_headers): """ 请求方法封装 :param curt_url: 请求地址 :param curt_xpath: 对应table xpath :param curt_list: 存放列表 :param curt_headers: 请求头 :return: 无返回 """

为什么要这么做？为了避免代码冗余，后续有很多地方用到数据请求和获取，所以进行了封装。而传入的四个参数，基本是变化的，所以用到时候，传入需要的参数即可；

在每次请求前加个延迟：time.sleep(1)，避免请求太过频繁；

使用requests.get方法，获取目标地址数据，其中要加入两个参数，主要避免请求报SSl错误：

res = requests.get(curt_url, verify=False, headers=curt_headers)

使用etree.HTML方法返回的数据进行html转换：

tree = etree.HTML(res.content)

使用tree.xpath方法获取该页面中指定元素的内容：

div = tree.xpath(curt_xpath)

使用以下方法进行格式转换，获取的数据是byte字节，转换成str类型；

div_str = etree.tostring(div[0]) div_str1 = str(div_str, "UTF-8")

使用BeautifulSoup方法解析页面html，获取a标签的所有链接内容，就是大类或小类的名字对应的链接了；

soup = BeautifulSoup(div_str1) for k in soup.find_all(a): curt_list.append(k[href])

get_category方法源码：

def get_category(self, curt_url, curt_xpath, curt_list, curt_headers): """ 请求方法封装 :param curt_url: 请求地址 :param curt_xpath: 对应table xpath :param curt_list: 存放列表 :param curt_headers: 请求头 :return: 无返回 """ time.sleep(1) res = requests.get(curt_url, verify=False, headers=curt_headers) # 接口数据请求方法 tree = etree.HTML(res.content) # 获取返回数据的内容 div = tree.xpath(curt_xpath) # 获取当前页面需要的table xpath对应的内容 div_str = etree.tostring(div[0]) # 格式转换 div_str1 = str(div_str, "UTF-8") # byte转为str # print(div_str1) soup = BeautifulSoup(div_str1) # BeautifulSoup解析页面html for k in soup.find_all(a): # 获取a标签 curt_list.append(k[href])

5.1.2 封装html数据写入方法write_html

就是把以上获取的内容存入html格式的文件中；

这个简单，直接上代码：

def write_html(self, file, txt): """ 公共方法：把获取的数据写入文本内容到文件【html格式】 :param file: 文件名 :param txt: 文本内容 :return: 返回成功或失败 """ try: with open(file, w, encoding=utf-8) as f: f.write(txt) time.sleep(3) f.close() return f"file写入: 成功" except: return f"file写入: 失败"

5.1.3 封装html转excel方法html_to_excel

简单说，就是把html文件转换成excel格式；

传入五个参数：

def html_to_excel(self, base_dir, big_dir, small_dir, full_path, new_file_path): """ 将html文件转换成excel格式的文件 :param base_dir: 文件存放基地址，默认脚本的上一层目录 :param big_dir: 大类目录 :param small_dir: 小类目录 :param excel_dir: 存放excel目录 :param sheet_n: 存放sheet的名称=小类 :param full_path: 所有sheet合并目录 :param new_file_path: 最终合并的某个小类的excel :return:无返回 """

大概思路是：

直接上代码：

def html_to_excel(self, base_dir, big_dir, small_dir, full_path, new_file_path): """ 将html文件转换成excel格式的文件 :param base_dir: 文件存放基地址，默认脚本的上一层目录 :param big_dir: 大类目录 :param small_dir: 小类目录 :param excel_dir: 存放excel目录 :param sheet_n: 存放sheet的名称=小类 :param full_path: 所有sheet合并目录 :param new_file_path: 最终合并的某个小类的excel :return:无返回 """ excel_dir = base_dir + "\\\\" + big_dir + "\\\\" + small_dir + "\\\\" sheet_n = small_dir # sheet_n = "1-陶瓷电容器" os.chdir(excel_dir) for filename in os.listdir(excel_dir): print(filename) try: with open(excel_dir + filename, rb) as f: df = pandas.read_html(f.read(), header=1, encoding=utf-8) bb = pandas.ExcelWriter(excel_dir + filename + ".xlsx") df[0].to_excel(bb, index=False) bb.close() except Exception as e: print("异常：" + e) time.sleep(3) workbook = pandas.ExcelWriter(full_path) folder_path = Path(excel_dir) file_list = folder_path.glob(*.xlsx*) for i in file_list: stem_name = i.stem data = pandas.read_excel(i, sheet_name=0) data.to_excel(workbook, sheet_name=stem_name, index=False) time.sleep(2) workbook.save() workbook.close() time.sleep(2) data2 = pandas.read_excel(full_path, sheet_name=None) data3 = pandas.concat(data2, ignore_index=True) # new_file_path = "合并.xlsx" data3.to_excel(new_file_path, sheet_name=sheet_n, index=False)

5.2 两个全局变量存放获取的数据名称

category_list = [] # 存放所有大类 category_list_small = [] # 存放所有小类

5.3 创建数据处理和获取类DataBase

5.3.1 初始化类

def __init__(self): # self.tools = Tools() self.url = xxxx # 目标网站 self.headers = Connection: close # 请求头，避免ssl报错 # self.big_num = 3 # 第几个大类，从0开始 # self.small_num = 0 # 第几个小类，从0开始 self.net_xpath = /html/body/div[5]/div/div[2] # 网站所有大类的table xpath self.xpath_big = [/html/body/div[3]/div[2]] # 对应大类中的小类的table xpath self.xpath_small = [/html/body/div[4]/div] # 对应小类的内容table xpath

5.3.2 获取所有大类名称存入列表

def get_big_category(self): """获取网站中所有的类别，存放列表中""" self.get_category(self.url, self.net_xpath, category_list, self.headers) print(f"1=========category_list")

5.3.3 获取所有大类中小类的名称存入列表

def get_small_category(self, big_num): """获取某个大类中小类所有的类别，存放列表中""" self.get_category(fself.urlcategory_list[big_num], self.xpath_big[0], category_list_small, self.headers) print(f"获取的大类是： category_list[big_num] ，如下：")

5.3.4 获取小类中页面的内容

def get_small_content(self, i, small_num): """获取小类中所有内容""" print(f"获取的大类对应的小类是：category_list_small[small_num]") time.sleep(1) url_1 = fself.urlcategory_list_small[small_num]?page=i print(f"请求的小类的域名为：url_1") res = requests.get(url_1, verify=False, headers=self.headers) tree = etree.HTML(res.content) div = tree.xpath(self.xpath_small[0]) div_str = etree.tostring(div[0]) div_str1 = str(div_str, "UTF-8") time.sleep(2) return div_str1

5.4 方法调用main设计

5.4.1 输出输入规则

def main(): print("*" * 20) print("在运行前请所熟悉下规则：\\n" "1、按照网页显示，大类名称输入数字-大类名称，如1-电阻器\\n" "2、小类名称输入数字-小类名称，如1-固定电阻器\\n" "3、大小类前边的数字表示第几个\\n" "4、如果输错不做判断，只是存放的路径需要自己查找，建议一次性输入正确\\n" "5、！！！！！程序执行过程请勿关闭任何窗口！！！！！") print("*" * 20)

5.4.2 对当前脚本路径进行处理

base_file = os.path.dirname(os.path.abspath("test_database_final.py")) print("#" * 20) print("程序将开始执行，请稍后......\\n" "程序已经启动~\\n" f"程序启动目录为：base_file\\n" "初始化数据......") print("&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&\\n" "1-电阻器 2-连接器 3-连接器支架 4-电容器 5-振荡器 \\n" "6-晶体/谐振器 7-电源电路 8-开关 9-传感器/温度传感器 10-光电 \\n" "11-光纤 12-二极管 13-电路保护 14-存储 15-信号电路 \\n" "16-电感器 17-端子 18-插座 19-微控制器和处理器 20-射频和微波 \\n" "21-逻辑 22-晶体管 23-继电器 24-转换器 25-过滤器 \\n" "26-触发装置 27-RC网络 28-可编程逻辑 29-电信电路 30-驱动程序和接口 \\n" "31-放大器电路 32-耐热支撑装置 33-变压器 34-消费电路 35-电池 \\n" "&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&")

5.4.3 从键盘输入要获取的数据信息

big = input("请输入大类的名称(如1-电阻器): ") small = input("请输入小类的名称(如1-固定电阻器): ") num = int(input("请输入小类的页数(如50,需要从网站查看): ")) b_n = int(input("请输入该大类对应的序号，共35个大类，从左到右数从0开始，比如0： ")) m_n = int(input("请输入该小类对应的序号，从0开始，比如0: ")) print(f"经过输入，我们要获取的数据为:第b_n + 1个大类中的第m_n + 1个小类\\n" f"即：big中的small")

5.4.4 数据调用

data_base = DataBase() data_base.get_big_category() data_base.get_small_category(b_n)

5.4.5 循环换入每页中的数据

for i in range(1, num+1): get_cOntent= data_base.get_small_content(i, m_n) print(f"第i次获取：获取的数据开始写入文件，文件名为：第i页.html") file = f"base_file\\\\big\\\\small" if os.path.exists(file) is False: os.makedirs(file) data_base.write_html(file=f"file\\\\第i页.html", txt=get_content) time.sleep(1)

5.4.6 获取的数据合并存入最终的excel

data_base.html_to_excel(base_file, big, small, f"smallsheet.xlsx", f"small.xlsx")

5.4.7 main方法源码

def main(): print("*" * 20) print("在运行前请所熟悉下规则：\\n" "1、按照网页显示，大类名称输入数字-大类名称，如1-电阻器\\n" "2、小类名称输入数字-小类名称，如1-固定电阻器\\n" "3、大小类前边的数字表示第几个\\n" "4、如果输错不做判断，只是存放的路径需要自己查找，建议一次性输入正确\\n" "5、！！！！！程序执行过程请勿关闭任何窗口！！！！！") print("*" * 20) base_file = os.path.dirname(os.path.abspath("test_database_final.py")) print("#" * 20) print("程序将开始执行，请稍后......\\n" "程序已经启动~\\n" f"程序启动目录为：base_file\\n" "初始化数据......") print("&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&\\n" "1-电阻器 2-连接器 3-连接器支架 4-电容器 5-振荡器 \\n" "6-晶体/谐振器 7-电源电路 8-开关 9-传感器/温度传感器 10-光电 \\n" "11-光纤 12-二极管 13-电路保护 14-存储 15-信号电路 \\n" "16-电感器 17-端子 18-插座 19-微控制器和处理器 20-射频和微波 \\n" "21-逻辑 22-晶体管 23-继电器 24-转换器 25-过滤器 \\n" "26-触发装置 27-RC网络 28-可编程逻辑 29-电信电路 30-驱动程序和接口 \\n" "31-放大器电路 32-耐热支撑装置 33-变压器 34-消费电路 35-电池 \\n" "&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&") big = input("请输入大类的名称(如1-电阻器): ") small = input("请输入小类的名称(如1-固定电阻器): ") num = int(input("请输入小类的页数(如50,需要从网站查看): ")) b_n = int(input("请输入该大类对应的序号，共35个大类，从左到右数从0开始，比如0： ")) m_n = int(input("请输入该小类对应的序号，从0开始，比如0: ")) print(f"经过输入，我们要获取的数据为:第b_n + 1个大类中的第m_n + 1个小类\\n" f"即：big中的small") data_base = DataBase() data_base.get_big_category() data_base.get_small_category(b_n) for i in range(1, num+1): get_cOntent= data_base.get_small_content(i, m_n) print(f"第i次获取：获取的数据开始写入文件，文件名为：第i页.html") file = f"base_file\\\\big\\\\small" if os.path.exists(file) is False: os.makedirs(file) data_base.write_html(file=f"file\\\\第i页.html", txt=get_content) time.sleep(1) data_base.html_to_excel(base_file, big, small, f"smallsheet.xlsx", f"small.xlsx")

5.5 主程序调用

if __name__ == "__main__": main() input(Press Enter to exit…)
6 完整源码

# -*- coding:utf-8 -*- # 作者：NoamaNelson # 日期：2022/10/11 # 文件名称：test_database_final.py # 作用：xxx # 博客：https://blog.csdn.net/NoamaNelson import requests from lxml import etree from bs4 import BeautifulSoup import pandas import os import time from pathlib import Path class Tools(object): """公共方法（工具）作为基类被后续调用""" def get_category(self, curt_url, curt_xpath, curt_list, curt_headers): """ 请求方法封装 :param curt_url: 请求地址 :param curt_xpath: 对应table xpath :param curt_list: 存放列表 :param curt_headers: 请求头 :return: 无返回 """ time.sleep(1) res = requests.get(curt_url, verify=False, headers=curt_headers) # 接口数据请求方法 tree = etree.HTML(res.content) # 获取返回数据的内容 div = tree.xpath(curt_xpath) # 获取当前页面需要的table xpath对应的内容 div_str = etree.tostring(div[0]) # 格式转换 div_str1 = str(div_str, "UTF-8") # byte转为str # print(div_str1) soup = BeautifulSoup(div_str1) # BeautifulSoup解析页面html for k in soup.find_all(a): # 获取a标签 curt_list.append(k[href]) # 循环获取href链接 def write_html(self, file, txt): """ 公共方法：把获取的数据写入文本内容到文件【html格式】 :param file: 文件名 :param txt: 文本内容 :return: 返回成功或失败 """ try: with open(file, w, encoding=utf-8) as f: f.write(txt) time.sleep(3) f.close() return f"file写入: 成功" except: return f"file写入: 失败" def html_to_excel(self, base_dir, big_dir, small_dir, full_path, new_file_path): """ 将html文件转换成excel格式的文件 :param base_dir: 文件存放基地址，默认脚本的上一层目录 :param big_dir: 大类目录 :param small_dir: 小类目录 :param excel_dir: 存放excel目录 :param sheet_n: 存放sheet的名称=小类 :param full_path: 所有sheet合并目录 :param new_file_path: 最终合并的某个小类的excel :return:无返回 """ excel_dir = base_dir + "\\\\" + big_dir + "\\\\" + small_dir + "\\\\" sheet_n = small_dir # sheet_n = "1-陶瓷电容器" os.chdir(excel_dir) for filename in os.listdir(excel_dir): print(filename) try: with open(excel_dir + filename, rb) as f: df = pandas.read_html(f.read(), header=1, encoding=utf-8) bb = pandas.ExcelWriter(excel_dir + filename + ".xlsx") df[0].to_excel(bb, index=False) bb.close() except Exception as e: print("异常：" + e) time.sleep(3) workbook = pandas.ExcelWriter(full_path) folder_path = Path(excel_dir) file_list = folder_path.glob(*.xlsx*) for i in file_list: stem_name = i.stem data = pandas.read_excel(i, sheet_name=0) data.to_excel(workbook, sheet_name=stem_name, index=False) time.sleep(2) workbook.save() workbook.close() time.sleep(2) data2 = pandas.read_excel(full_path, sheet_name=None) data3 = pandas.concat(data2, ignore_index=True) # new_file_path = "合并.xlsx" data3.to_excel(new_file_path, sheet_name=sheet_n, index=False) category_list = [] # 存放所有大类 category_list_small = [] # 存放所有小类 class DataBase(Tools): def __init__(self): # self.tools = Tools() self.url = xxxxx # 目标网站 self.headers = Connection: close # 请求头，避免ssl报错 # self.big_num = 3 # 第几个大类，从0开始 # self.small_num = 0 # 第几个小类，从0开始 self.net_xpath = /html/body/div[5]/div/div[2] # 网站所有大类的table xpath self.xpath_big = [/html/body/div[3]/div[2]] # 对应大类中的小类的table xpath self.xpath_small = [/html/body/div[4]/div] # 对应小类的内容table xpath def get_big_category(self): """获取网站中所有的类别，存放列表中""" self.get_category(self.url, self.net_xpath, category_list, self.headers) print(f"1=========category_list") def get_small_category(self, big_num): """获取某个大类中小类所有的类别，存放列表中""" self.get_category(fself.urlcategory_list[big_num], self.xpath_big[0], category_list_small, self.headers) print(f"获取的大类是： category_list[big_num] ，如下：") def get_small_content(self, i, small_num): """获取小类中所有内容""" print(f"获取的大类对应的小类是：category_list_small[small_num]") time.sleep(1) url_1 = fself.urlcategory_list_small[small_num]?page=i print(f"请求的小类的域名为：url_1") res = requests.get(url_1, verify=False, headers=self.headers) tree = etree.HTML(res.content) div = tree.xpath(self.xpath_small[0]) div_str = etree.tostring(div[0]) div_str1 = str(div_str, "UTF-8") time.sleep(2) return div_str1 def main(): print("*" * 20) print("在运行前请所熟悉下规则：\\n" "1、按照网页显示，大类名称输入数字-大类名称，如1-电阻器\\n" "2、小类名称输入数字-小类名称，如1-固定电阻器\\n" "3、大小类前边的数字表示第几个\\n" "4、如果输错不做判断，只是存放的路径需要自己查找，建议一次性输入正确\\n" "5、！！！！！程序执行过程请勿关闭任何窗口！！！！！") print("*" * 20) base_file = os.path.dirname(os.path.abspath("test_database_final.py")) print("#" * 20) print("程序将开始执行，请稍后......\\n" "程序已经启动~\\n" f"程序启动目录为：base_file\\n" "初始化数据......") print("&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&\\n" "1-电阻器 2-连接器 3-连接器支架 4-电容器 5-振荡器 \\n" "6-晶体/谐振器 7-电源电路 8-开关 9-传感器/温度传感器 10-光电 \\n" "11-光纤 12-二极管 13-电路保护 14-存储 15-信号电路 \\n" "16-电感器 17-端子 18-插座 19-微控制器和处理器 20-射频和微波 \\n" "21-逻辑 22-晶体管 23-继电器 24-转换器 25-过滤器 \\n" "26-触发装置 27-RC网络 28-可编程逻辑 29-电信电路 30-驱动程序和接口 \\n" "31-放大器电路 32-耐热支撑装置 33-变压器 34-消费电路 35-电池 \\n" "&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&") big = input("请输入大类的名称(如1-电阻器): ") small = input("请输入小类的名称(如1-固定电阻器): ") num = int(input("请输入小类的页数(如50,需要从网站查看): ")) b_n = int(input("请输入该大类对应的序号，共35个大类，从左到右数从0开始，比如0： ")) m_n = int(input("请输入该小类对应的序号，从0开始，比如0: ")) print(f"经过输入，我们要获取的数据为:第b_n + 1个大类中的第m_n + 1个小类\\n" f"即：big中的small") data_base = DataBase() data_base.get_big_category() data_base.get_small_category(b_n) for i in range(1, num+1): get_cOntent= data_base.get_small_content(i, m_n) print(f"第i次获取：获取的数据开始写入文件，文件名为：第i页.html") file = f"base_file\\\\big\\\\small" if os.path.exists(file) is False: os.makedirs(file) data_base.write_html(file=f"file\\\\第i页.html", txt=get_content) time.sleep(1) data_base.html_to_excel(base_file, big, small, f"smallsheet.xlsx", f"small.xlsx") if __name__ == "__main__": main() input(Press Enter to exit…)
7 Pyinstaller打包